从单个图像中恢复人头的几何形状,同时对材料和照明进行分解是一个严重不良的问题,需要事先解决。基于3D形态模型(3DMM)及其与可区分渲染器的组合的方法已显示出令人鼓舞的结果。但是,3DMM的表现力受到限制,它们通常会产生过度平滑和身份敏捷的3D形状,仅限于面部区域。最近,使用多层感知器参数化几何形状的神经场获得了高度准确的全头部重建。这些表示形式的多功能性也已被证明可有效解开几何形状,材料和照明。但是,这些方法需要几十个输入图像。在本文中,我们介绍了Sira,该方法从单个图像中,从一个图像中重建了具有高保真度几何形状和分解的灯光和表面材料的人头头像。我们的关键成分是基于神经场的两个数据驱动的统计模型,这些模型可以解决单视3D表面重建和外观分解的歧义。实验表明,Sira获得了最新的状态导致3D头重建,同时它成功地解开了全局照明以及弥漫性和镜面反照率。此外,我们的重建适合基于物理的外观编辑和头部模型重新构建。
translated by 谷歌翻译
In this paper, we present a modified Xception architecture, the NEXcepTion network. Our network has significantly better performance than the original Xception, achieving top-1 accuracy of 81.5% on the ImageNet validation dataset (an improvement of 2.5%) as well as a 28% higher throughput. Another variant of our model, NEXcepTion-TP, reaches 81.8% top-1 accuracy, similar to ConvNeXt (82.1%), while having a 27% higher throughput. Our model is the result of applying improved training procedures and new design decisions combined with an application of Neural Architecture Search (NAS) on a smaller dataset. These findings call for revisiting older architectures and reassessing their potential when combined with the latest enhancements.
translated by 谷歌翻译
Although deep networks have shown vulnerability to evasion attacks, such attacks have usually unrealistic requirements. Recent literature discussed the possibility to remove or not some of these requirements. This paper contributes to this literature by introducing a carpet-bombing patch attack which has almost no requirement. Targeting the feature representations, this patch attack does not require knowing the network task. This attack decreases accuracy on Imagenet, mAP on Pascal Voc, and IoU on Cityscapes without being aware that the underlying tasks involved classification, detection or semantic segmentation, respectively. Beyond the potential safety issues raised by this attack, the impact of the carpet-bombing attack highlights some interesting property of deep network layer dynamic.
translated by 谷歌翻译
大图通常出现在社交网络,知识图,推荐系统,生命科学和决策问题中。通过其高级别属性总结大图有助于解决这些设置中的问题。在光谱聚类中,我们旨在确定大多数边缘落在簇内的节点簇,而在簇之间只有很少的边缘。此任务对于许多下游应用和探索性分析很重要。光谱聚类的核心步骤是执行相应图的拉普拉斯矩阵(或等效地,奇异值分解,SVD)的特征分类。迭代奇异值分解方法的收敛取决于给定矩阵的光谱的特征,即连续特征值之间的差异。对于对应于群集图的图形的图形拉普拉斯,特征值将是非负的,但很小(小于$ 1 $)的减慢收敛性。本文引入了一种可行的方法,用于扩张光谱以加速SVD求解器,然后又是光谱群集。这是通过对矩阵操作的多项式近似来实现的,矩阵操作有利地改变矩阵的光谱而不更改其特征向量。实验表明,这种方法显着加速了收敛,我们解释了如何并行化和随机近似于可用的计算。
translated by 谷歌翻译
神经网络的认证是一个重要且具有挑战性的问题,几年以来就吸引了机器学习社区的注意力。在本文中,我们专注于随机平滑(RS),该平滑度被认为是获得可靠的强大神经网络的最先进方法。特别是,最近引入的一种新的与数据相关的RS技术可用于证明神经网络每个输入数据附近具有正交轴的椭圆形。在这项工作中,我们指出,在输入数据的旋转下,ANCER并不是不变的,并提出了一种新的旋转不变的公式,可以在其轴上对椭圆进行认证。我们称为Riemannian数据依赖的随机平滑(RDDR)的方法依赖于协方差矩阵流形的信息几何技术,并且可以根据我们在MNIST数据集的实验来证明比ANCE的更大区域。
translated by 谷歌翻译
最大化类之间的分离构成了机器学习中众所周知的归纳偏见和许多传统算法的支柱。默认情况下,深网不配备这种电感偏差,因此通过差异优化提出了许多替代解决方案。当前的方法倾向于共同优化分类和分离:将输入与类向量对齐,并角度分离载体。本文提出了一个简单的替代方法:通过在计算SoftMax激活之前添加一个固定的矩阵乘法,将最大分离作为网络中的电感偏差编码。我们方法背后的主要观察结果是,分离不需要优化,可以在训练之前以封闭形式解决并插入网络。我们概述了一种递归方法,以获取由任何数量类别的最大可分离矢量组成的矩阵,可以通过可忽略的工程工作和计算开销添加。尽管它的性质很简单,但这个矩阵乘法提供了真正的影响。我们表明,我们的建议直接提高分类,长尾识别,分布式检测和开放式识别,从CIFAR到Imagenet。我们从经验上发现,最大分离最有效地作为固定偏见。使矩阵可学习不会增加表现。在GitHub上,封闭形式的实现和代码是在GitHub上。
translated by 谷歌翻译
图像重建算法的稳健性和稳定性最近受到了审查。它们对医学成像的重要性不能被夸大。我们回顾了局部变异正则化策略的已知结果($ \ ell_2 $和$ \ ell_1 $正则化),并为$ \ ell_p $正规化的线性逆问题提供新的稳定结果,$ p \ in(1,\ infty)$。我们的结果很好地推广到相应的$ L_P(\ Omega)$功能空间。
translated by 谷歌翻译
多模式培训的最新进展使用文本描述,可以显着增强机器对图像和视频的理解。然而,目前尚不清楚语言在多大程度上可以完全捕捉不同方式的感官体验。一种表征感官体验的良好方法取决于相似性判断,即人们认为两个截然不同的刺激是相似的程度。我们在一系列大规模的行为研究($ n = 1,823美元的参与者)中探讨了人类相似性判断与语言之间的关系,这三种模式(图像,音频和视频)和两种类型的文本描述符:简单的文字描述符: - 文本字幕。在此过程中,我们引入了一条新型的自适应管道,用于标签挖掘,既有高效又是领域。我们表明,基于文本描述符的预测管道表现出色,我们将其与基于视觉,音频和视频处理体系结构的611基线模型进行了比较。我们进一步表明,文本描述符和模型在多种方式之间和模型之间预测人类相似性的程度各不相同。综上所述,这些研究说明了整合机器学习和认知科学方法的价值,以更好地了解人类和机器表示之间的相似性和差异。我们在https://words-are-are-all-you-need.s3.amazonaws.com/index.html上介绍了交互式可视化,以探索人类所经历的刺激和本文中报道的不同方法之间的相似性。
translated by 谷歌翻译
神经文本到语音研究的最新进展是利用低级中间语音表示(例如MEL-光谱图)的两阶段管道主导的。但是,这种预定的特征从根本上受到限制,因为它们不允许通过学习隐藏表示形式来利用数据驱动方法的全部潜力。因此,已经提出了几种端到端方法。但是,这样的模型更难训练,并且需要大量具有转录的高质量录音。在这里,我们提出了WavThruvec-一种两阶段的架构,通过使用高维WAV2VEC 2.0嵌入作为中间语音表示,可以解决瓶颈。由于这些隐藏的激活提供了高级语言特征,因此它们对噪音更强大。这使我们能够利用质量较低的注释语音数据集来训练第一阶段模块。同时,由于WAV2VEC 2.0的嵌入已经进行了时间对齐,因此可以在大规模未转录的音频语料库上对第二阶段组件进行培训。这导致了对量表词的概括能力的提高,以及对看不见的说话者的更好概括。我们表明,所提出的模型不仅与最新神经模型的质量相匹配,而且还介绍了有用的属性,可以实现语音转换或零弹性合成的任务。
translated by 谷歌翻译
包括协调性信息,例如位置,力,速度或旋转在计算物理和化学中的许多任务中是重要的。我们介绍了概括了等级图形网络的可控e(3)的等值图形神经网络(Segnns),使得节点和边缘属性不限于不变的标量,而是可以包含相协同信息,例如矢量或张量。该模型由可操纵的MLP组成,能够在消息和更新功能中包含几何和物理信息。通过可操纵节点属性的定义,MLP提供了一种新的Activation函数,以便与可转向功能字段一般使用。我们讨论我们的镜头通过等级的非线性卷曲镜头讨论我们的相关工作,进一步允许我们引脚点点的成功组件:非线性消息聚集在经典线性(可操纵)点卷积上改善;可操纵的消息在最近发送不变性消息的最近的等价图形网络上。我们展示了我们对计算物理学和化学的若干任务的方法的有效性,并提供了广泛的消融研究。
translated by 谷歌翻译